SKOS Shuttle - ein Service zur Taxonomy Governance am Beispiel von Umweltinformationssystemen (SKOS Shuttle - a service for Taxonomy Governance using the example of environmental information systems)
نویسندگان
چکیده
Nowadays, thesauri are unavoidable bridges for semantic meshups between several domains. So they can be considered also as knowledge kernels of intelligent (environmental) information systems. Since information „lives” (changes quickly), the quality of involved thesauri and relaying information systems depends on their up-to-dateness. In this contribution we present a web service and sketch a method how thesaurus modifications can be propagated to any number of connected semantic stores, allowing information to be meshed up using current items. This allows for an effective “information governance” of thesauri-connected information sources and thereby enhances the efficiency of information retrieval. Zusammenfassung Thesauri sind heute unverzichtbare Brücken zur semantischen Verknüpfung unterschiedlicher Domains und bilden damit auch ein Kernstück intelligenter Umweltinformationssysteme (UIS). Da Informationen „leben“, d.h. sich sehr schnell verändern, wird die Qualität der involvierten Thesauri und der sich darauf abstützenden UIS direkt daran messbar, wie aktuell deren Daten gehalten sind. In diesem Beitrag werden ein Service und eine Methode skizziert, wie Thesaurus-Modifikationen an (grundsätzlich) beliebigen „Semantic Stores“ nachgezogen und abgefragt werden können. Dies gestattet eine effektive „Information Governance“ via Thesauri angebundener (Umwelt-)Informationsquellen und erhöht damit die Qualität und die Effizienz der Informationsgewinnung. Tagungsband UIS 2017 178 1 Thesauri als RDF-Wissensbasen für Umweltinformationen Seit Jahrhunderten verwenden Naturwissenschaftler formale Klassifikationen, insbesondere Taxonomien, um die von ihnen untersuchten „Gegenstände“ eines Wissensgebiets zu ordnen und zueinander in Beziehung zu setzen. Laut aktueller Wikipedia ist eine Taxonomie (griechisch τάξις bzw. táxis ,Ordnung’ und νόμος bzw. nómos ,Gesetz’) ein einheitliches Verfahren oder ein Modell (Klassifikationsschema), mit dem Objekte nach bestimmten Kriterien klassifiziert, das heißt in Kategorien oder Klassen (auch Taxa genannt) eingeordnet werden. Naturwissenschaftliche Disziplinen verwenden den Begriff der Taxonomie für eine in der Regel hierarchische Klassifikation (Klassen, Unterklassen usw.). Eine Taxonomie kann somit auch als hierarchisch organisiertes kontrolliertes Vokabular aufgefasst werden. Ein Thesaurus ist eine Taxonomie, in der neben der hierarchischen Klassifikation („Unterbegriff“/“Oberbegriff“) weitere wohldefinierte Relationen zwischen den Begriffen definiert sind. Seine Verwendung ist sinnvoll (und oft notwendig), wenn sich Experten über gemeinsames Wissen verständigen und dieses erweitern wollen. Ein Thesaurus beschreibt die wesentlichen Begriffe („Concepts“) eines Wissensgebietes und wesentliche Relationen dieser Begriffe zueinander. Als wesentliche Relationen haben sich dabei neben den Oberbzw. Unterbegriffsrelationen die Synonymrelation („ist synonym zu“) einschließlich eines zu verwendenden Spitzenbzw. Referenz-Begriffs („top term“) sowie die Verwandtschaftsrelation („ist verwandt mit“) etabliert. Durch die im Vergleich zu Taxonomien zusätzlichen Relationen (Synonym und Verwandtschaft) sind Thesauri adäquater für die Kommunikation zwischen Menschen (und Menschen helfenden Maschinen), die i.a. eine durch Synonyme und Unschärfe geprägte Kommunikation pflegen. RDF zur Darstellung von Semantic Stores Zur systematischen Speicherung, insbesondere aber zum effizienten Wiederfinden elektronisch gespeicherter Aussagen haben sich im Unterschied zu relationalen Datenbanken (die zum schnellen Wiederfinden von DATEN sehr gut geeignet sind) so genannte Triple Stores – im folgenden als Semantic Stores bezeichnet – bewährt. Das entsprechende, seit 2001 standardisierte und inzwischen sehr weit verbreitete Tagungsband UIS 2017 179 Rahmenkonzept heißt RDF (Ressource Description Framework) [W3C, 2001] und bildet heutzutage die Grundlage für sog. Linked Data, die im allgemeinen eine höhere Dateninteroperabilität als relational basierte Datenmodelle gewährleisten. SKOS (Simple Knowledge Organisation System) zur Formalisierung von Thesauri und Taxonomien SKOS ist eine vom W3C als Empfehlung veröffentlichte, auf RDF und RDF-Schema (RDFS) basierende formale Sprache zur Kodierung von Thesauri, Klassifikationsschemata, Taxonomien oder anderen kontrollierten Vokabularen [W3C, 2009]. Mit SKOS wird ein konzeptionelles Modell bereitgestellt, das die einfache Veröffentlichung und Kombination strukturierter und maschinenlesbarer kontrollierter Vokabulare für das Semantische Web ermöglicht. Es beinhaltet eine Zusammenstellung von Standards und Spezifikationen zur Unterstützung von Wissensorganisationssystemen („Knowledge Organisation Systems“), so dass taxonomische Information systematisch zu einer standardisierten Begriffsnavigation genutzt werden kann. Mit SKOS wurden inzwischen zahlreiche Thesauri auch für den Bereich von Umweltinformationen entwickelt bzw. exisitierende in SKOS umgewandelt und veröffentlicht, z.B. AGROVOC [Rajbhandari, 2012], EARTH [Albertoni, 2010], GEMET [Eionet, 2009], REEGLE [REEEP, 2005] und UMTHES [UMTHES, 2017]. Zur Aktualität semantischer Technologien Semantische Technologien (im weiteren Sinne) werden eingesetzt, seit es Computer gibt. Dabei geht es ganz allgemein darum, die Bedeutung von Daten durch ihre Metadaten darzustellen. Ein großen Aufschwung erlangte die Forschung zu semantischen Technologien mit der immer stärkeren Nutzung des Internet zum Ende der 1990ger Jahre und mit der Etablierung des Begriffs „Semantic Web“ durch Tim Bernerns-Lee im Jahr 2001 [Berners-Lee, 2001]. Parallel zu den weiterhin sichtbaren, aber weniger spektakulären Forschungsaktivitäten wurden durch die enorme wirtschaftliche Bedeutung des Internet und die Konsolidierung der GAFAM-Unternehmen (Google, Apple, Facebook, Amazon, Microsoft) sowie IBM semantische Technologien verstärkt in deren Suchsystemen eingesetzt [Cardinal, 2012], [Everhart, 2012] und durch die Anwender (wenn auch Tagungsband UIS 2017 180 unbemerkt, d.h. implizit) genutzt. Zur Sicherung und Verbesserung der Qualität der sich immer weiter vergrößernden und konföderierenden (Zusammenschließen verschiedener) Wissensbestände ist es aus Sicht der Autoren unabdingbar, insbesondere die explizite Arbeit mit Thesauri durch geeignete Technologien und Services zu unterstützen. Dies trifft insbesondere auch für den Bereich der Umweltinformationssysteme zu, wo einschlägige Thesauri bereits seit fast 20 Jahren existieren, heute aber weiterhin gepflegt und noch mehr genutzt werden sollten. SKOS ist seit 2009 der von W3C empfohlene Standard für die Modellierung von Thesauri. Durch seine niedrige Verständnisschwelle und gleichzeitige Universalität bietet er eine geeignete Brücke zwischen unterschiedlichen Thesauri und vereinfacht dadurch die Begriffsnavigation. 2 SKOS-Thesauri zur Taxonomy Governance von Umweltinformationssystemen SKOS-Thesauri können aus älteren Thesauri gewonnen oder ganz neu entwickelt werden. Laut [Abecker 2011] „versprechen semantische Technologien, in Kombination mit bewährten Daten-Management-Ansätzen, einen einfachen begriffsbasierten Informationszugang, ähnlich dem, den man von Google kennt“.In [Abecker 2012] wird unter anderem gezeigt, wie SKOS-Thesauri dank des LusTRE-Prototyps im eENVplus-Framework als Interlinking-Brücken für Daten aus Umweltinformationssystemen gewinnbringend eingesetzt werden können. Dabei wurde eine effiziente semantische explorative Suche realisiert, bei der eine gezielte Datenexploration via „interlinked“ (verknüpften) Begriffe ermöglicht wird. Beide genannte Arbeiten demonstrieren, wie Thesauri als semantische Techologien bei der Nutzung von Umweltinformationssystemen gewinnbringend eingesetzt werden können. Thesauri, aber auch Taxonomien können somit als eine wesentliche Brücke zwischen Daten und Nutzer im Bereich UIS angesehen werden. Die Qualität von Taxonomien, bzw. Thesauri hängt u.a. davon ab, wie aktuell die darin verlinkten Begriffe gehalten werden. Hinsichtlich des Automatisierungsgrades ihrer Aktualisierung können dabei unterschiedliche Vorgehensweisen eingesetzt werden, wobei wir in automatische, semi-automatische und manuelle Aktualisierung Tagungsband UIS 2017 181 unterscheiden, welche die Aktualisierung von Namen, Begriffen und Relationen, sowie die Löschung, Archivierung und Schaffung neuer Konzeptschemata („Concept Schemes“, vgl. [W3C, 2009]) betrifft. Obwohl eine automatische Anpassung auf den ersten Blick sehr erwünscht zu sein scheint („die Maschine macht alles“), können dabei eine Reihe von Anomalien (veraltetete, unvollständige oder teilwidersprüchliche Inhalte) entstehen, die, wenn nicht entdeckt, „offiziell“ geteilt und damit fehlerhaft „konsolidiert“ werden. Dies ist oft dann der Fall, wenn das anpassende System keine automatische logische Überprüfung gewährleistet. Da Thesauri grundsätzlich von Menschen für Menschen erstellt werden, sollten auch Menschen ggf. vorgeschlagene Modifikationen freigeben, bevor diese offiziell geteilt werden. Letzteres fällt unter „semiautomatische“ Anpassung und setzt voraus, dass das Thesaurus-Pflege-System eine entsprechende Workflow-Infrastruktur zur Verfügung stellt. Aufgrund der starken Semantikbezogenheit von Taxonomien und Thesauri ist aber die aktuell noch recht gut verwendete und verberietet Methodik die manuelle. Hier werden im Thesaurus-Pflegesystem Namen und Relationen manuell modifiziert. Einige Systeme unterstützen eine zweistufige Methode, bei der auch nach menschlichen Modifikationen in einem Workflow in einer zweiten Phase diese Modifikationen angenommen oder abgelehnt werden können. Taxonomy Governance und ein Anwendungsszenario Unter „Taxonomy Governance“ sollen in diesem Beitrag alle Methoden verstanden werden, die eingesetzt werden, um taxonomische Information in einem Unternehmen zu behandeln und aktuell zu halten. Diese Definition ist stark an die für „Information Governance“ [Smallwood 2014] angelehnt. Das in diesem Beitrag vorgestellte Szenario wird durch den folgenden Aspekt charakterisiert: Unterschiedliche (SKOS-) Thesauri sind an ein Umweltinformationssystem (UIS) angebunden. Dieses UIS verwendet die offiziellen RDF-Teile dieser Thesauri („Semantic Stores“) und setzt deren Aktualität voraus (vgl. Abbildung 1). Tagungsband UIS 2017 182 Abbildung 1: Szenario bei mehreren angebundenen RDF-Thesauri in einem UIS Wir möchten nun zeigen, wie mit Hilfe von SKOS Shuttle [Ricci, 2016], s. Abschnitt 3, eine gut wartbare Thesaurus-Einkapselung im Sinne einer effizienten Aktualisierbarkeit und Anwendbarkeit erreicht werden kann. Dazu werden zunächst die Thesauri (Abbildung 1, unterste Schicht) in SKOS Shuttle eingekapselt (siehe Abbildung 2) und jeder Thesaurus wird weiterhin auf seinem Semantic Store gehostet. Benutzer können dadurch die RDF-Daten viel leichter verändern und pflegen. In der untersten Schicht in der Abbildung nutzt das UIS weiterhin die RDF-Daten für die Datenverknüpfung. Abbildung 2: Gleiche Konstellation wie in Abbildung 1, aber unter Einsatz von SKOS Shuttle Bei den Abbildungen 1 und 2 ist die Pflege der Thesauri (d.h. kontinuierliche Aktualisierung) noch nicht berücksichtigt. In Abbildung 3 wird exemplarisch ein Projekt dargestellt, bei dem ein Thesaurus in SKOS Shuttle verwaltet wird. Systematiker (englisch: „Taxonomists“, wir verwenden im Folgenden das neue deutsche Wort „Taxonom“) aktualisieren ihre Projektinhalte Tagungsband UIS 2017 183 (und damit ihre Thesauri) auf einem „Referenz“ Semantic-Store, z.B. via SKOS Shuttle regelmäßig. Jede Änderung wird direkt oder in vordefinierten Zeitabständen in den Semantic Stores nachgezogen, die an das UIS angeschlossen sind. Abbildung 3: Synchronisation beliebiger Semantic Stores via Thesauripflege Angeschlossene synchronisierte Semantic Stores spiegeln jeweils eine Replik des aktualisierten Thesaurus im Referenz-Semantic-Store wider. Diese Methode garantiert, dass jede Thesaurusänderung im Referenz-SemanticStores in den angeschlossenen Stores wieder zu finden ist. Als Konsequenz davon greift das UIS dann auf die aktualisierten Thesauri zu. Qualitätsaspekte der Synchronisation Im dargestellten Szenario werden drei Orte des Thesauruseinsatzes angenommen: Ein Pflegeort – hier zweckmäßig auch Veränderungsort genannt, an dem Taxonomen Anpassungen am Thesaurus anbringen und damit RDF-Veränderungen produzieren, und zwei eher passivere Orte (z.B. eine Agentur und ein Ministerium) – zweckmäßig hier Empfangsorte genannt – an denen die Veränderungen empfangen und umgesetzt werden. Sofern jeweils nur eine Veränderungsquelle in einem Szenario vorhanden ist, bietet das dargestellte Synchronisationsverfahren genug Sicherheit, keine Anomalien zu erzeugen. Will man dieses Szenario verallgemeinern und mehreren Orten die Fähigkeit der Thesaurusveränderung zuschreiben, so können unter Umständen Anomalien auftreten, die wir im Folgenden kurz skizzieren. Im Anschluss davon werden wir noch einige hinreichende qualitätserhaltende Bedingungen vorschlagen. Tagungsband UIS 2017 184 Einige notwendige Definitionen Abkürzend sprechen wir im folgenden von „Graphen“ (eigentlich RDF-Graphen) und verstehen hier darunter eine Menge von RDF-Statements (auch RDF-Triples genannt). Die Knoten eines Graphen sind Subjekte oder Literale, seine Kanten sind Aussagen (Statements) über jeweils ein Subjekt. Ein Subgraph eines Graphen ist eine Teilmenge der RDF-Statements eines Graphen. Ein „RDF-Delta“ (formal: RDF-) ist ein Subgraph, der aus einer Menge zu löschender und hinzuzufügender RDF-Statements eines gegeben Graphen besteht. RDF-Delta ist formal wie folgt definiert : RDF- = , wobei : RDF-Statements im Graph, die entfernt werden sollen : RDF-Statements im Graph, die hinzugefügt werden sollen. Wenn ein RDF-Delta auf einen Graphen angewendet wird, setzen wir vereinfachend voraus, dass die und zum selben Zeitpunkt gelöscht bzw. hinzugefügt werden, d.h. wir betrachten die Anwendung eines RDF-Delta als „atomar“. Zwei RDF-Mengen RDF-1 und RDF-2 nennen wir disjunkt (formal: RDF-1 RDF2 = ), wenn 1 und 2 ebenfalls disjunkt sind (1 2 = ), d.h. 1 und 2 haben kein Subjekt gemeinsam und betreffen somit diskunkte Untergraphen im selben RDFGraphen. Wir nennen ein RDF-Delta auf einen Graphen anwendbar, wenn sein zu diesem Graphen gehört. D.h. ein RDF-Delta ist auf einem Graphen genau dann anwendbar, wenn die zu ersetzenden RDF-Statements im Graph vorhanden sind. (Weitere Abschwächungen der Anwendbarkeit eines RDF-Delta sind denkbar, z.B. es könnte einfach gefordert werden, dass jedes Subjekt im bereits im Graphen sein muss. Dies kann als Konfigurationsoption angeboten werden.) Tagungsband UIS 2017 185 Anwendung der Definitionen auf das vorgestellte Szenario Im dargestellten Szenario mit einer Veränderungsquelle und zwei Empfangsorten ist ein RDF-Delta immer anwendbar. Werden keine zu ersetzenden Statements im Graphen gefunden, so ist das RDF-Delta nicht anwendbar. Sollte AGENTUR zusätzlich eine Änderungsbefugnis erhalten, besteht jetzt die Möglichkeit, dass der Empfangsort synchrone, zeitlich überlappende oder zeitlich versetzte Veränderungen aus beiden Veränderungsquellen erhält. Sieht man in der Praxis von einer gleichzeitigen Anwendung ab, so ergeben sich Situationen, die sich aus zeitlich überlappenden oder zeitlich versetzten Veränderungen ergeben: Sind beide RDF-1 und RDF-2 disjunkt, so besteht keine Gefahr von Anomalien im veränderten RDF-Graphen. Im anderen Fall (beide RDF- beziehen sich zum Teil auf dasselbe Subjekt), wird die Anwendung des ersten RDF-1 die Anwendbarkeit des zeitlich versetzt bearbeiteten RDF-2 verhindern. Somit wird RDF-2 unanwendbar für den jeweiligen Empfangsort. Als Folge davon wird RDF-2 nicht angewendet und der jeweilige Empfangsort weist dann einen älteren Stand auf als die anderen Orte. Somit ergibt sich folgendes Fazit: Ist mehr als ein Veränderungsort im Spiel, ergeben sich an einem Empfangsort potentiell Anomalien im Zielgraphen, wenn nicht disjunkte RDF-Delta Mengen verarbeitet werden. Da in RDF-Graphen grundsätzlcih widersprüchliche Statements darstellbar sind, sollte die Lösung dieser Widersprüche mittels eines geeigneten Werkzeuges – ähnlich wie bei der SVN Repository Synchronisation bei [Eclipse, 2016] unter Einbezug jedes Veränderungsorts durchgeführt werden können. Abbildung 4 soll Besagtes schematisch verdeutlichen. Abbildung 4: Sichere gegen unsichere Synchronisation Tagungsband UIS 2017
منابع مشابه
Operationalisierung der IT-Governance-Kernbereiche für die Identifizierung und Gestaltung von Services
Serviceorientierung ist ein seit einigen Jahren viel diskutiertes Paradigma für Unternehmensarchitekturen. Ein wichtiger Erfolgsfaktor für die Implementierung einer serviceorientierten Architektur (SOA) ist die Berücksichtigung der fachlichen Perspektive basierend auf Geschäftsprozessen [DD07]. Zu dieser fachlichen Sicht auf eine SOA gehören auch Governance-Aspekte, weshalb analog zur IT-Govern...
متن کاملEin Ansatz fur eine Ontologie-basierte Verbindung von IT Monitoring und IT Governance
IT Governance hat zum Ziel, dass die Unternehmens-IT die Strategie und Geschäftsziele des Unternehmens möglichst effizient unterstützt. Um dies umzusetzen, existieren mehrere international anerkannte Verfahren und Standards wie z.B. COBIT, ITIL oder ISO 20000. Diese sind jedoch konzeptionell gehalten und machen meist keine Vorgaben zur technischen Umsetzung. Dieser Beitrag untersucht, wie mit H...
متن کاملTerminologie Mapping: Grundlagen und aktuelle Normungsvorhaben
Der Artikel basiert auf einer Bachelorarbeit mit dem Titel „Terminologie Mapping: Grundlagen und aktuelle Standardisierung“, die im Sommersemester 2011 an der Hochschule Darmstadt geschrieben wurde. Er befasst sich mit den Grundlagen des Terminologie Mappings, also der Erstellung von Querverbindungen zwischen verschiedenen kontrollierten Vokabularen und der Standardisierung der Mapping-Verfahre...
متن کاملDevelopment of a framework to evaluate service-oriented architecture governance using COBIT approach
Nowadays organizations require an effective governance framework for their service-oriented architecture (SOA) in order to enable them to use a framework to evaluate their current state governance and determine the governance requirements, and then to offer a suitable model for their governance. Various frameworks have been developed to evaluate the SOA governance. In this paper, a brief introd...
متن کاملIntegration von ERP- und Umweltinformationssystemen - Status quo, Perspektiven und Anwendungsfelder
In den vergangenen 15 Jahren sind umfangreiche Anstrengungen im wissenschaftlichen Umfeld unternommen worden, betriebswirtschaftliche Anwendungssysteme (ERP-Systeme) mit Umweltinformationssystemen zu integrieren. Als Ergebnis dieser Arbeiten entstanden im Wesentlichen Konzepte, Referenzmodelle und prototypische Implementierungen. Eine flächendeckende Etablierung der entwickelten Konzepte in Unt...
متن کامل